Inteligencia de Negocios

Maestría en Mercadeo

Sobre Mi

PhD en Estadística, MSc en Analytics & Big Data, MSc en Estadística. Con 20 años de experiencia, actual director de analítica en el CNC, miembro del comité de expertos en pobreza en el DANE y consultor de la División de Estadística de la CEPAL. Ex-decano de la Facultad de Estadística USTA, ex-director de operaciones en el ICFES,…

Puedes encontrarme en:

Reglas del juego

  • Viernes 17 de enero, de 5:30 p.m. a 9:30 p.m.
  • Sábado 18 de enero, de 8:00 a.m. a 12:00 p.m.
  • Martes 21 de enero, de 5:30 p.m. a 9:30 p.m.
  • Viernes 24 de enero, de 5:30 p.m. a 9:30 p.m.
  • Sábado 25 de enero, de 8:00 a.m. a 12:00 p.m.
  • Martes 28 de enero, de 5:30 p.m. a 9:30 p.m.



Reglas del juego


  • Mecanismo de evaluación:

    • Proyecto precios: 35%, se permite la entrega por parejas
    • Proyecto satisfacción: 35%, se permite la entrega por parejas
    • Proyecto de tablero de control/visualización: 30%, trabajo individual



La cadena de valor de los datos

Los datos como recurso estratégico: Nuevas oportunidades, segmentos del mercado, entendimiento del consumidor

Introducción

  • Entender mejor el consumidor
  • Necesidades, expectativas
  • Quién es el consumidor
  • Cuáles son sus hábitos de consumo
  • Cuántos segmentos existen en el mercado
  • Factores relevantes en momentos de compra
  • Cuáles son los momentos del servicio que más afectan la satisfacción


Decisiones informadas

Inteligencia de negocios

El término fue acuñado por Gartner a mediados de los años 90, pero el concepto se origina en los años 70 con el comienzo de los sistemas de información gerenciales (MIS, Management Informations System). Hoy en día se implementan sistemas conocidos como:

  • CRM (Customer Relationship Management), que es un sistema diseñado para gestionar las relaciones con los clientes y mejorar las interacciones con ellos, buscando mejorar la experiencia del cliente, aumentar la lealtad y la retención, así como la optimización de procesos de ventas y marketing.

Inteligencia de negocios

El término fue acuñado por Gartner a mediados de los años 90, pero el concepto se origina en los años 70 con el comienzo de los sistemas de información gerenciales (MIS, Management Informations System). Hoy en día se implementan sistemas conocidos como:

  • ERP (Enterprise Resource Planning), es un sistema integrado que gestiona las operaciones internas de una empresa, desde finanzas hasta inventarios, buscando centralizar la información, mejorar la eficiencia operativa, reducir errores y duplicación de datos. Gobierno de datos

Inteligencia de negocios

El término fue acuñado por Gartner a mediados de los años 90, pero el concepto se origina en los años 70 con el comienzo de los sistemas de información gerenciales (MIS, Management Informations System). Hoy en día se implementan sistemas conocidos como:

  • SCM (Supply Chain Management), ayuda a gestionar y optimizar la cadena de suministro, desde el aprovisionamiento de materias primas hasta la entrega al cliente final, busca reducir costos de operación, mejorar la eficiencia logística, asegurar la calidad y disponibilidad de productos.

Inteligencia de negocios

Un sistema de inteligencia de negocios incluye herramientas y técnicas que proporcionan grandes capacidades para la transformación de los datos en conocimiento que contribuyan en la toma estratégica de decisiones que se conviertan en acciones oportunas.


INFORMACIÓN + CONVERSACIÓN + ACCIÓN = TRANSFORMACIÓN

Inteligencia de negocios

Estaremos hablando de conceptos, técnicas y herramientas que constituyen el soporte de la inteligencia de negocio y la analítica de negocios como:

  • Bases de datos
  • Metadatos
  • Data Warehouse y Data Marts
  • Data Lakes
  • Integración de datos
  • Datos estructurados y no estructurados
  • Herramientas de visualización
  • Métodos de visualización
  • Analítica de datos
  • Modelos de aprendizaje automático
  • Ciencia de datos
  • Big Data

HACÍA EL RETO BIG DATA

Transformación digital

Haz clic para ver el video

Haz clic para ver el video

Proceso de analítica

Wickham, H. y otros (2023)

Paquete R

  • Paquete de uso libre

  • Tiene todos los métodos que necesitamos

  • Incluye paquetes específicos en muestreo como TeachingSampling, samplesize4surveys, survey, srvyr, sampling, etc

R logo

Etapas del proceso

El entorno tidyverse

Flujo de trabajo

ANTECEDENTES Y JUSTIFICACIÓN

Sir Francis Galton (1822-1911)

  • Galton hizo importantes contribuciones en muchos campos de la ciencia, incluyendo la meteorología (mapas meteorológicos), la estadística (regresión y correlación), la psicología (sinestesia), la biología (mecanismo de la herencia) y la criminología (huellas dactilares).

  • Fue el primero en introducir el uso de cuestionarios y encuestas para recopilar datos sobre comunidades humanas.


R logo

Jerzy Neyman (1894-1981)

  • Introdujo las reglas de probabilidad en la selección de muestras.

  • Neyman, J.(1934). On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection, Journal of the Royal Statistical Society: Series B, 97 (4), 557–625.


R logo

Morris Hansen (1910-1990)

  • Implementó los diseños de muestreo en la Oficina del Censo y la Oficina de Estadísticas Laborales de EEUU.

  • Pionero en establecer el Muestreo de Encuestas como un estándar de excelencia para la recolección de datos en agencias gubernamentales.

  • Olkin, I. (1987). Una conversación con Morris Hansen. Statistical Science 2, 162-179


R logo

¿Por qué hacer muestreo?

  • Reducción de costos (eficiencia).

  • Obtener información rápida (tiempo).

  • En ocasiones es la única forma de obtener información (procesos de control de calidad).

  • ¿Cualquier muestra es buena?. ¿Es suficiente con que la muestra sea muy grande?

  • Para usted, ¿cuál es un tamaño de muestra adecuado?, ¿cuáles cree que son los factores que afectan el tamaño de muestra?

04:30

Temas que se alcanzan en este curso

  • Conceptos básicos en el muestreo probabilístico
  • Muestreo Aleatorio Simple
  • Uso de información auxiliar: Muestreo Sistemático, PPT, \(\pi\)PT, estratificado.
  • Estimadores de Horvitz-Thompson y Hansen-Hurwitz
  • Estimación de la incertidumbre
  • Muestreo por conglomerados y de varias etapas
03:00

Temas que NO se alcanzan a ver en este curso

  • Estimadores usando información auxiliar
  • Estrategias de estratificación
  • Métodos de calibración
  • Ajustes por la ausencia de respuesta
  • Estimación de la varianza usando métodos replicados
  • Diseños de muestreo en evaluaciones de impacto o de resultados
  • Modelos de estimación en áreas pequeñas (SAE)
03:00

INTRODUCCIÓN

Esquema de muestreo

Esquema de muestreo

Esquema de muestreo

El multiverso y la incertidumbre

Proceso de estimación:




“Todos los modelos son errados pero algunos son útiles”


George Box (1919 - 2013).

CHICAS logo

Proceso de estimación

Discusión

Discutamos los siguientes conceptos por 5 minutos:

  • Aleatoriedad
  • Variable aleatoria
  • Población
  • Muestra
  • Incertidumbre
  • Confiabilidad
05:00

Decisiones previas al muestreo

  • Propósito del estudio
  • Población de interés
  • Disponibilidad de bases de datos
  • Instrumentos de medición
  • Tipo de levantamiento de información
  • Prueba piloto

Conceptos básicos


Universo ideal: Se trata del conjunto sobre el cual el investigador y no propiamente el muestrista pretende obtener algún tipo de información. Definir Alcance: Ej. Intención de voto - ¿Rural?


Población Objetivo: Constituye el conjunto de elementos que partiendo del universo ideal pueden ser realmente alcanzados por la investigación. Lo anterior se puede dar por razones operativas, políticas, económicas, etc.

Conceptos básicos


Marco Muestral: Dispositivo que permite IDENTIFICAR y UBICAR a todos los elementos de la población objetivo.

  • Lista de estudiantes de esta clase.
  • Lista de beneficiarios de un programa.
  • Listado de municipios del país.

TAREA: Investigue qué es y cómo se obtiene el Marco Geoestadístico Nacional (MGN).

Conceptos básicos

Operación estadística

Es la aplicación del conjunto de procesos y actividades que comprende la identificación de necesidades, diseño, construcción, recolección o acopio, procesamiento, análisis, difusión y evaluación, la cual conduce a la producción de información estadística sobre un tema de interés nacional o territorial.


Unidades estadísticas

Entidad acerca de la que se busca información y para la que se compilan las estadísticas. Puede dividirse en las siguientes categorías: unidad de observación, unidades de análisis y unidad de muestreo.

Conceptos básicos

  • Muestra: Subconjunto de la población.
  • Unidad de muestreo: Objeto o elemento susceptible de ser seleccionado en la muestra.
  • Unidad de Observación: Es el objeto sobre el cual se realiza al menos una medición.
  • Unidad de Análisis: Elemento de estudio sobre el que se presentan los resultados o las conclusiones de la operación estadística.

Conceptos básicos

  • Elemento: Unidad individual sobre las que se realizan mediciones.
  • Conglomerado: Agrupación de elementos.
  • Error de muestreo: Es el imputable a la aleatoriedad de la muestra.
  • Error de no muestreo: Son consecuencia de definiciones conceptuales incorrectas, de fallos en los instrumentos de medida, en la entrevista o en el desarrollo del trabajo de campo.

Conceptos básicos

Variables de interés

Regularmente se denotan como \(y_k\), \(z_k\) o \(x_k\), y sobre estas se definen los parámetros a investigar que pueden ser: Totales, razones, proporciones, indicadores, índices.


Por ejemplo, total de personas desempleadas, total de personas que consumen un producto, proporción de personas que votarán por el candidato A, proporción de hogares en pobreza condición de pobreza extrema, ventas por \(m^2\), promedio de ingresos de los hogares.

Tu turno



Identifique:

  • Universo
  • Muestra
  • Unidades estadísticas
  • Variables
  • Parámetros de interés

Ejemplo 1: Clima escolar



La SED realizó una investigación en los colegios oficiales de la ciudad de Bogotá D.C. con el fin de medir el clima escolar de las instituciones, para ello usó una muestra de 658 sedes educativas, en las cuales se seleccionaron estudiantes de los grados 3°, 5°, 7° y 9° para aplicar un instrumento donde se indagan, entre otros, los aspectos sobre el bulling, relaciones sociales, nivel de satisfacción con la sede educativa.

Ejemplo 2: Intención de voto

Una campaña política para la Presidencia de la República realizó una investigación para establecer las estrategias a seguir. Para ello se dividió al país en 7 regiones, y dentro de cada una se dividieron los municipios en tres tipos: grandes, medianos y pequeños. Dentro de cada tipo se seleccionó una muestra de municipios, dentro de los municipios seleccionados se usó el MGN para seleccionar segmentos, hogares y finalmente personas. La muestra consideró a 6430 personas con edad para votar en 89 municipios, los cuales respondieron por el conocimiento de los candidatos, la intención de voto y los aspectos que consideran que actualmente son los principales problemas del país.

Tipos de muestreo

Existen dos grandes categorías de métodos de muestreo

Muestreo probabilístico: Implica que todos los elementos de una población objetivo tienen una probabilidad CONOCIDA a priori de ser seleccionados y que al momento de la selección se aplica un algoritmo aleatorio que garantiza que dichas probabilidades se cumplan. Permite generalizar los resultados a toda la población pero son costosos

Figura: Fuente de la imagen: Scribbr - Sampling Methods

Tipos de muestreo

Existen dos grandes categorías de métodos de muestreo

Muestreo NO probabilístico: Son todas las demás muestras donde el investigador puede influenciar la selección o debido a la inexistencia de un marco muestral o por ser un target de difícil consecución no es posible conocer las probabilidades a priori. No es posible hacer inferencia a la población, es de bajo costo y fácil aplicación.

Figura: Fuente de la imagen: Sampling Methods

Tipos de muestreo

MUESTREO PROBABILÍSTICO

Notación



Defina a \(U\) un universo1 de elementos \(\{U_1,\ldots,U_N\}\) finito y conocido de antemano con una variable de interés \(Y\) que toma valores \(\{y_1,\ldots,y_N\}\). Sea el parámetro \(\theta\) (medida del universo) una función de \((y_1,\ldots,y_N)\) de esta manera a \(\theta(y_1,\ldots,y_N)\) se denomina parámetro y se denota \(\theta\).

Conceptos básicos


Algunos parámetros de interés en un estudio por muestreo:

  • Total: Ocupados, Desocupados, Pobreza Extrema, Consumidores de SPA, …

\[t_y=\sum_Uy_k\]

Conceptos básicos


Algunos parámetros de interés en un estudio por muestreo:

  • Promedio: Promedio de ingresos, promedio de ventas,…

\[\overline{y}_U=\frac{1}{N}\sum_Uy_k\]

Conceptos básicos


Algunos parámetros de interés en un estudio por muestreo:

  • Razón: Tasa de ocupación, tasa de desempleo, consumo de gasolina de un auto (Km por galón),…

\[R=\frac{\sum_Uy_k}{\sum_Uz_k}=\frac{t_y}{t_z}\]

Conceptos básicos



Sea \(s\) una muestra de elementos con mediciones \(y_1,\ldots,y_{n_s}\). Se define el estimador \(\widehat{\theta}\), como una función de los valores de la muestra que es construido de tal manera que apunte al valor del parámetro \(\theta\).

Estimadores

Estimador del total

\[\widehat{t}_y = ?\]

Estimador del promedio

\[\overline{y}_s=\frac{1}{n_s}\sum_sy_k; \hspace{1.0cm} \widetilde{y}_s=\sqrt[n_s]{\prod_sy_k}\]

Note que la proporción, promedio y razón son casos particulares de la estimación de un total.

Propiedades de un estimador


¿Qué buscamos en un estimador?

  • Insesgado: \(\mathbb{E}(\widehat{\theta})=\theta\)
  • Mínima Varianza: \(\mathbb{V}(\widehat{\theta})\rightarrow 0\)
  • $ $ $

Estimación de la incertidumbre

Si \(\widehat{\theta}\) es una función basada en una suma de variables aleatorias independientes el teorema central de límite permite encontrar una expresión para la estimación por intervalo bajo ciertas condiciones de regularidad. En caso de que \(\mathbb{E}(\widehat{\theta})=\theta\) se espera con una confiabilidad del \((1-\alpha)100\%\) que: \[\theta \in \left(\widehat{\theta}-z_{1-\alpha/2}\sqrt{V(\widehat{\theta})}, \widehat{\theta}+z_{1-\alpha/2}\sqrt{V(\widehat{\theta})}\right),\]

en donde \(z_{1-\alpha/2}\) es el percentil correspondiente en una distribución normal estándar.

Observaciones

  • Lo que se distribuye normal es el estadístico y no la variable de interés.
  • La distribución de la variable de interés es invariante independiente del tamaño de muestra.
  • Para estudios en tendencia no es suficiente con comparar estimaciones puntuales, sino que debe hacerse la prueba de hipótesis correspondiente para determinar si existe diferencia significativa. Ejemplo: Tasa de desempleo.

Ejercicio: TCL




Simule 100 muestra de tamaño 1000 proveniente de una distribución uniforme en \((0,1)\). Calcule el estadístico \(\bar{y}_s\) para cada una de las 100 muestras y realice los histogramas para \(n=5, 10, 15, 20, 25, 30, 40, 50, 60, 80, 100\). Concluya.

Solución

Paso 1: Construir el marco de datos con los valores

Solución

Veamos la distribución de \(y\) en algunas de las muestras

Solución

¿Cómo es la distribución de \(\sum_sy_k\)?

Solución

¿Cómo es la distribución de \(\sum_sy_k\)?

Diseño muestral

Definición:

Sea \(s \subseteq U\) una muestra probabilística y sea \(S\) el conjunto de todas las muestras posibles. La función de medida de probabilidad:

\[\begin{align*} \mathbf{P}: & S \rightarrow (0,1) \\ & s_i \mapsto p(s_i) \end{align*}\]

Dado el conjunto \(S\), un diseño de muestreo es una función \(p(\cdot)\), tal que \(p(s_i)\) es la probabilidad de que la muestra \(i\) sea la seleccionada.

Muestreo Aleatorio Simple: \(MAS(N, n)\)

Un diseño de muestreo es aleatorio simple si:

\[\begin{equation} p(s_i)=\begin{cases} \frac{1}{\binom{N}{n}} \hspace{0.5cm} \forall \textit{$s$ de tamaño $n$ de $N$ sin repocisión} \\ \hspace{0.2cm} 0 \hspace{0.7cm} \textit{en otro caso}\end{cases} \end{equation}\] \(n\) corresponde al tamaño de la muestra mientras que \(N\) corresponde al tamaño del universo.


Tu turno: Construya el marco y el espacio muestral basado en el gasto de \(N=10\) personas con muestras de \(n=3\) elementos

04:00

Muestreo Aleatorio Simple: \(MAS(N, n)\)

Algoritmos de selección para un MAS

Coordinado Negativo

  1. Generar \(N\) realizaciones de una variable aleatoria \(\xi_k\) (\(k\in U\)) con distribución uniforme (0,1).
  2. Asignar \(\xi_k\) al elemento \(k\)-ésimo de la población.
  3. Ordenar la lista de elementos descendente (o ascendentemente) con respecto a este número aleatorio \(\xi_k\).
  4. Seleccionar los \(n\) primeros (o los \(n\) últimos) elementos.

Tu turno: Seleccione una muestra aleatoria simple de tamaño \(n=3\) elementos del universo de \(N=10\) usando el algoritmo coordinado negativo

03:00

Algoritmos de selección para un MAS

Fan-Muller-Rezucha (1962)

  1. Realizar \(\xi_k\sim U(0,1)\)
  2. Calcular \[c_k=\dfrac{n-n_k}{N-k+1}\] donde \(n_k\) es la cantidad de objetos seleccionados en los \(k-1\) ensayos anteriores.
  3. Si \(\xi_k<c_k\), entonces el elemento \(k\) pertenece a la muestra.
  4. Detener el proceso cuando \(n=n_k\).

Algoritmos de selección para un MAS



Tu turno: Seleccione una muestra aleatoria simple de tamaño \(n=3\) elementos del universo de \(N=10\)


  1. Use el método de Fan-Muller. Explore la función ?TeachingSampling::S.SI()
  2. Use la función sample(x, size)

Muestreo Bernoulli. \(Ber(N, \pi)\)


\[p(s_i)=\underbrace{\pi\cdot\pi\cdots\pi}_{n_s \text{ veces}}\underbrace{(1-\pi)(1-\pi)\cdots(1-\pi)}_{N-n_s \text{ veces}}\]

\[p(s_i)=\begin{cases} \pi^{n_s}(1-\pi)^{N-n_s} \forall s \textit{con } n_s \textit{ elementos sin reposición} \\ \hspace{0.2cm} 0 \hspace{0.7cm} \textit{en otro caso}\end{cases}\]

\(\pi\) se fija a priori por experiencia y es igual para todos los elementos de \(U\), nótese que \(n_s\) es un tamaño de muestra aleatorio que puede incluir a todos o a ningún elemento en la muestra.

Mecanismo de selección



  • Fijar el valor de \(\pi\) tal que \(0<\pi<1\).
  • Asignar \(\xi_k \sim U(0,1)\) para todos los elementos de \(U\).
  • El elemento \(k\) pertenece a la muestra si \(\xi_k < \pi\). Así la probabilidad de que el \(k\)-ésimo elemento pertenezca a la muestra es igual a \(\pi\).

Revisión de equipajes en aeropuertos.

Muestreo Sistemático. \(SIS(N, n, r)\)

Cuando no se dispone de un marco de muestreo de manera explícita pero se sabe que la población está ordenada por un rótulo en particular. Por ejemplo, los hogares dentro de una manzana están ordenados por su dirección o número de apartamento.


\(p(s_i)=\begin{cases} \frac{1}{\binom{a}{r}} \hspace{0.5cm} s= \{a_j, a_k\}, r=2 \\ \hspace{0.2cm} 0 \hspace{0.7cm} \textit{en otro caso}\end{cases}\)


\(N=an+r\), el tamaño de muestra se define como la parte entera del cociente \(N/a\).

Mecanismo de selección



  • Seleccionar con probabilidad \(\frac{1}{a}\) un arranque aleatorio. Es decir, un valor \(q\) tal que \(1\leq q \leq a\).
  • La muestra estará definida por el siguiente conjunto: \[s_q=\left\{k: k=q+(j-1)a; j=1, \ldots, n_s\right\}\]

Probabilidades de Inclusión


Se define probabilidad de inclusión de primer orden del elemento \(k\)

\[\pi_k=\sum_{k \in s_i}p(s_i)\]

Sea:

\[I_k=\begin{cases}1 \hspace{0.3cm} \text{si $k \in s$} \\ 0 \hspace{0.3cm} \text{en otro caso}\end{cases}\]

Entonces \(\pi_k=P(I_k=1)\)

ejemplo MAS

Probabilidades de Inclusión


Se define probabilidad de inclusión de segundo orden de los elementos \(k\) y \(l\)

\[\pi_{kl}=\sum_{k,l \in s_i}p(s_i)\]

Entonces \(\pi_{k,l}=P(I_kI_l=1)\)

Probabilidades de Inclusión



  • \(\pi_{kk}=\pi_k.\)
  • Por definición de muestra probabilística \(\pi_k>0\).
  • En muestreo de elementos \(\pi_k\) para todo \(k=1,\ldots,N\) son conocidos de antemano.

Estadística y Estimador

Sea \(\widehat{\theta}\) una estadística o estimador entonces bajo el diseño muestral \(p(\cdot)\) se define:

  • Valor esperado: \(E_P(\widehat{\theta})=\sum_Sp(s_i)\widehat{\theta}\)
  • Sesgo: \(B(\widehat{\theta})=E_P(\widehat{\theta})-\theta\)
  • Varianza: \(V_P(\widehat{\theta})=\sum_Sp(s_i)\left[\widehat{\theta}-E(\widehat{\theta})\right]^2\)
  • Error Cuadrático Medio: \(ECM(\widehat{\theta})=V(\widehat{\theta})+B^2(\widehat{\theta})\)

Estadística y Estimador

Sea \(\widehat{\theta}\) una estadística o estimador entonces bajo el diseño muestral \(p(\cdot)\) se define:

  • Error estándar: \(\sqrt{V_P(\widehat{\theta})}\)
  • Coeficiente de variación (error relativo): \(\frac{\sqrt{V_P(\widehat{\theta})}}{E_P(\widehat{\theta})}\)
  • Coeficiente de variación estimado: \(cve(\%)=100*\frac{\sqrt{\widehat{V}_P(\widehat{\theta})}}{\widehat{\theta}}\)

GRACIAS!

Referencias

  • Gutiérrez, H. A. (2009). Estrategias de muestreo: Diseño de encuestas y estimación de parámetros. Facultad de Estadística, Universidad Santo Tomás.

  • Lohr, S. L. (2021). Sampling: design and analysis. Chapman and Hall/CRC.

  • Särndal, C. E., Swensson, B., & Wretman, J. (2003). Model assisted survey sampling. Springer Science & Business Media.

  • Valliant, R., Dever, J. A., & Kreuter, F. (2013). Practical tools for designing and weighting survey samples (Vol. 1). New York: Springer.

Citación y derechos de autor

Este material ha sido creado por Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.

Si se copia parcial o totalmente, debe citar la fuente como:

Babativa-Márquez, J.G. Diapositivas del curso de muestreo probabilístico. URL: https://jgbabativam.github.io/Muestreo-I/Semana1.html. 2024.